GRZO: Optimización de orden cero para ajuste fino de LLMs
Descubre GRZO, el optimizador que reduce la varianza en el ajuste fino de LLMs, mejorando precisión y ahorrando memoria GPU.
Descubre GRZO, el optimizador que reduce la varianza en el ajuste fino de LLMs, mejorando precisión y ahorrando memoria GPU.
Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.
Aprende a hacer fine-tuning del modelo LFM2 con QLoRA y DPO en Google Colab. Tutorial paso a paso con código abierto. ¡Mejora tu IA!
Optimiza el ajuste fino de modelos grandes con adaptadores Kronecker. Conoce CDKA, una nueva técnica que mejora la capacidad y eficiencia mediante el diseño estratégico de componentes.
Descubre MeSP: reduce un 49% la memoria al ajustar LLMs en dispositivos, con gradientes exactos. Ideal para entrenamiento privado.
Descubre MARFT, un nuevo marco de ajuste fino por refuerzo multi-agente para optimizar sistemas de agentes LLM. Mejora colaboración y razonamiento.
GFlowGR utiliza GFlowNets para ajustar sistemas de recomendación, mitigando el sesgo de exposición. Mejora diversidad y precisión. Optimiza tu modelo.
Descubre cómo PFT mejora un 55% las propiedades fonónicas de materiales al ajustar potenciales interatómicos con IA. Nuevo estándar en simulaciones.
Los modelos de difusión enmascarada (MDLM) son sensibles a pequeños desplazamientos posicionales. Descubre cómo CTC mejora el ajuste fino y supera a la entropía cruzada en cuatro benchmarks.
OP-LoRA mejora el rendimiento de LoRA al añadir MLP temporal que se descarta. Logra hasta 15 puntos más en generación de imágenes.
Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.
SpeedAug acelera políticas robóticas con RL: aumenta 1.8x el rendimiento en solo 16 minutos de interacción sin comprometer la tasa de éxito.
Descubre CoLoRA, un método que aprovecha la similitud entre tareas para mejorar el ajuste fino de modelos fundacionales con pocos datos.
Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.
Descubre por qué el error por grupo predice mejor el rendimiento real que el MSE total en el ajuste fino de modelos VLA para robots manipuladores móviles de 11 GDL.
Descubre cómo el aprendizaje por refuerzo inverso mejora la eficiencia de modelos de comportamiento robótico, logrando tasas de éxito superiores al 90% en tareas complejas de manipulación.
Descubre cómo el tamaño de lote es el factor oculto que sesga la evaluación de LoRA. Optimízalo para mejores resultados.
Descubre cómo DrPO optimiza modelos generativos de un paso sin necesidad de gradientes de recompensa, mejorando la alineación y reduciendo el costo computacional.
Descubre CRMA: ajuste fino secuencial de LLMs sin olvido catastrófico, mejorando rendimiento en tareas previas. Sin buffers, sin destilación.
Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.